64: 让奶牛猫跳洗澡舞，与阿里通义薄列峰聊多模态共识中的变量是什么？| AI 大爆炸

Update: 2024-03-27

Description

年初至今，很多人可能都刷到过跳洗澡舞的奶牛猫和大金毛，从 B 站、小红书到 TikTok，它们一路从中国火到了海外。

让小猫舞起来的应用是阿里巴巴通义千问 App 中的“全民舞王”功能，其背后的技术是阿里通义实验室 XR 实验室开发的 Animate Anyone。

通义实验室 XR 实验室的多模态成果还有可一键换装的 Outfit Anyone，和今年 2 月底刚发布的肖像视频生成框架 EMO（Emote Potrait Alive），它可以用一段语音作为单一控制条件，驱动任何肖像类照片动起来，比如让蒙娜丽莎诗朗诵，让 Sora 女主角开口说话。

*节目中涉及的术语可见 Shownotes 末尾的附录解释。

（视频链接见 shownotes 末尾）

本期节目我们就邀请到了这一系列多模态成果的研发 leader，阿里通义实验室科学家（XR 实验室负责人）薄列峰，来分享他在人工智能多模态领域的实践与观察。

薄列峰于 2007 年获得西安电子科技大学电气工程博士学位，后在芝加哥大学和华盛顿大学从事博士后研究。

在加入阿里前，他先后担任了英特尔资深研究员，亚马逊无人超市 Amazon Go 首席应用科学家和京东数科 AI 实验室首席科学家。

薄列峰的学术和工业界经历刚好横跨深度学习崛起前后，并涉足多个领域，包括计算机视觉、自然语言和 AI 与硬件的结合。

本期节目我们从 OpenAI Sora 对多模态行业的影响出发，聊到了阿里自己的实践，技术与产品的结合——Animate Anyone 支持的“全民舞王”是一个AIGC（生成式人工智能）应用引发 meme 传播的的例子；还有薄列峰对多模态未来趋势，包括更长期的世界模型的技术设想。

内容摘要：

· Sora 和多模态行业进展

01:50 典型的多模态包括文生图、文生视频等；XR 实验室研究范围：解决数字人等问题。

03:19 多模态有较长的发展脉络，从 GAN 到 Diffusion Model 再到如今的 Sora。

06:35 Sora 的冲击：恐惧无益，视频生成尚未完全解决，世界模型仍有探索空间。

08:04 世界模型的定义和实现方法尚未达成共识。

09:09 Sora 带来了挑战与冲击，创业公司的机会。

10:51 面对 Sora，大厂的数据优势是否仍存在？

· XR 实验室的多模态探索

12:40 多模态模仿人类智能和能力，是自然而重要的发展方向。

14:00 阿里多模态研究脉络：数字资产生产+技能；技能涵盖表情、动作和交互等。

18:26 EMO 通过单一语音控制生成视频，无需动作序列。

20:40 Talking head 之前也有人做，新方法的区别在于使用了大模型。

21:32 大模型带来的变化：EMO 是 zero shot，生成过程简单、轻量；同时效果更生动、复杂，适应性更强。

· 技术与产品的协同进步

24:10 Animate Anyone 用到通义千问 app 中是技术研发和应用的交集。

26:28 用户带来的启发：让宠物跳舞比让人跳舞更受欢迎，因为宠物只能通过技术来跳舞。

27:10 上传狗的人比猫的人更多，因为原初模型更容易识别狗，近期已做了优化，提升了对猫狗的接受率。

27:56 免费提供 AIGC 功能的成本考量？现阶段更重视用户参与和反馈。

29:15 为何分精力做产品优化？——现阶段的产品优化实质是模型能力的优化。

· 过往的跨领域经历和技术观察

32:58 07年前后关于深度学习的玩笑：“深度学习效果比其它方法高了一个点，但多了很多参数。”

33:42 深度学习首先在语音识别任务上取得突破。

34:45 在亚马逊 Amazon Go 解决实际视觉问题的经历。

36:30 跨学科经历的启发？——实践中积累的正确理解至关重要。

38:20 为什么物理世界的 AI 进化更慢？——硬件在过去甚至未来都是大瓶颈。

42:10 多模态大趋势里的变量？——世界模型的实现。

43:12 世界模型应该能模拟因果，而非仅表达统计关系。实现方式仍不确定。

44:37 世界模型是否需 3D 化？尚不确定。

46:24 世界模型应输入哪些数据？

48:32 有了世界模型后，人们可以用它做什么？

相关阅读：

EMO 项目网站（可查看视频 demo）

Animate Anyone 项目网站（可查看视频 demo）

附录：节目中出现的技术、公司等名词：

·GAN（生成对抗网络）：一种通过对抗训练生成数据的深度学习模型。

·Diffusion Model（扩散模型）：目前主流的图片生成模型，它是模拟数据扩散过程的高质量图像生成模型。

·CLIP：OpenAI 发布的理解图像与文本关系的多模态 AI 模型。

·Pika、Runway：两家视屏生成模型创业公司。

·世界模型：模拟现实世界复杂系统的智能模型。

·Prompt：引导 AI 模型生成特定输出的文本或其它输入。

·zero shot：指模型无需针对特定任务训练特定样本也可完成该任务的能力。

·动作序列：按顺序排列的一系列动作，通过定义一系列动作和它们的执行顺序，可以创建出流畅且连贯的动态表现。

登场人物：

薄列峰，阿里通义实验室科学家

程曼祺，晚点 LatePost 科技报道编辑（微信：momochoqo；即刻：程曼祺_火柴Q）

剪辑：甜食